Học sâu về cơ bản là sự phát triển của Học máy cổ điển, coi việc nhận dạng mẫu phức tạp như một bài toán xấp xỉ hàm nhiều chiều vấn đề. Ngành này dựa vào việc mở rộng các kỹ thuật đã được xác lập về đại số tuyến tính và tối ưu hóa, chuyển từ các mô hình cổ điển có tham số thấp (như SVM tiêu chuẩn hoặc hồi quy tuyến tính) sang các mô hình chứa hàng triệu hay hàng tỷ tham số. Thành công đòi hỏi sự thành thạo trong việc định nghĩa những mối quan hệ phức tạp này bằng ký hiệu ma trận hiệu quả.
1. Cấu trúc cốt lõi: Xấp xỉ hàm với tham số cao
Mạng nơ-ron sâu được xây dựng bằng cách chồng các phép biến đổi tuyến tính đơn giản (nhân ma trận sử dụng trọng số $W$ và hệ số dịch $b$) xen kẽ với các hàm kích hoạt phi tuyến từng phần. Kiến trúc này cho phép mạng học tự động các cấp độ đặc trưng ngày càng trừu tượng và phức tạp trực tiếp từ đầu vào thô.
2. Liên kết then chốt: Giải tích đa biến và lan truyền ngược
Việc huấn luyện các mô hình khổng lồ này bao gồm việc tối thiểu hóa hàm mất mát $L(\theta)$ trên tất cả các tham số mạng $\theta$. Quá trình này yêu cầu tính toán hiệu quả gradient $\nabla_{\theta} L$ cho từng tham số riêng biệt bằng một thuật toán gọi là lan truyền ngược, vốn là ứng dụng trực tiếp của quy tắc dây chuyền giải tích đa biến.
The weights $W$ have dimension $(D \times K)$. Therefore, the gradient $\frac{\partial L}{\partial W}$ must also be $(D \times K)$ to perform the parameter update $W := W - \eta \frac{\partial L}{\partial W}$.